Accès par le contenu aux documents manuscrits d'archives numérisés

نویسندگان

  • Bertrand Coüasnon
  • Jean Camillerapp
چکیده

This paper presents handwritten archives document retrieval by content. This retrieval is build on information (annotations) associated to document images. We propose two complementary ways of producing those annotations : automatically by using optical document recognition and collectively by using internet and a manual input by users. A platform for managing those annotations is presented as well as examples of automatic annotations on civil status registers, military forms and naturalization decrees, using a generic document recognition method. This method has been tested on more than 60,000 pages of documents. Examples of collective annotations built on automatic annotations are also given. MOTS-CLÉS : annotations, accès par le contenu, documents manuscrits, reconnaissance de documents, généricité, tableaux, formulaires, gestion des connaissances a priori, grammaire, reconnaissance de l’écriture manuscrite.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Fusion des connaissances en analyse de documents - Exemples sur des documents d'archives

RÉSUMÉ. La reconnaissance de collections de documents structurés numérisés et notamment de documents d’archives est difficile non seulement par la complexité de l’organisation des documents, mais aussi par la dégradation des documents (tâches, déchirures, encre traversant le papier, courbures produites à la numérisation. . . ). Afin d’améliorer la qualité de la reconnaissance tout en gérant le ...

متن کامل

Une nouvelle approche pour indexer les documents manuscrits anciens Une nouvelle approche pour indexer les documents manuscrits anciens

Résumé : Dans cet article nous présentons une architecture pour la description et la recherche de documents manuscrits anciens. Nous utilisons une décomposition en Curvelets des images pour indexer les fragments linéaires de l’écriture. Appartenant à la famille des ondelettes, cette transformée nous permet d’avoir plusieurs niveaux de détails. Le schéma général consiste à analyser les orientati...

متن کامل

Un modèle de bibliothèque numérique collaborative - ARMARIUS

RÉSUMÉ. Les manuscrits anciens numérisés représentent un contenu spécifique pour les bibliothèques numériques. Les utilisateurs travaillant sur ce type de documents ont besoin de systèmes d’assistance et d’espaces de travail collectif pour interpréter, annoter et transcrire ces manuscrits. Dans cet article, nous présenterons un modèle de bibliothèque numérique spécialement conçu pour des manusc...

متن کامل

Accès au contenu des thèses numériques par leur structure sémantique

RÉSUMÉ. Les projets de bibliothèques numériques actuels offrent à l’utilisateur l’accès aux thèses à partir d’une recherche qui ne permet pas d’extraire les parties pertinentes de la thèse et ne renvoie que la thèse intégrale. Ainsi, l’utilisateur doit lire des chapitres entiers pour connaître les parties qui correspondent à son besoin. Le projet CITHER (Consultation en texte Intégral des THèse...

متن کامل

Accès aux connaissances orales par le résumé automatique

Le temps nécessaire pour écouter un flux audio est un facteur réduisant l’accès efficace à de grandes archives de parole. Une première approche, la structuration automatique des données, permet d’utiliser un moteur de recherche pour cibler plus rapidement l’information. Les listes de résultats générées sont longues dans un souci d’exhaustivité. Alors que pour des documents textuels, un coup d’o...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:
  • Document Numérique

دوره 7  شماره 

صفحات  -

تاریخ انتشار 2003